智能论文笔记

Incorporating Rivalry in Reinforcement Learning for a Competitive Game

Pablo Barros , Ozge Nilay Yalcın , Ana Tanevska , Alessandra Sciutti

分类：人工智能

2022-08-22

与社会推动者的强化学习的最新进展使此类模型能够在特定的互动任务上实现人级的绩效。但是，大多数交互式场景并不是单独的版本作为最终目标。取而代之的是，与人类互动时，这些代理人的社会影响是重要的，并且在很大程度上没有探索。在这方面，这项工作提出了一种基于竞争行为的社会影响的新颖强化学习机制。我们提出的模型汇总了客观和社会感知机制，以得出用于调节人造药物学习的竞争得分。为了调查我们提出的模型，我们使用厨师的帽子卡游戏设计了一个互动游戏场景，并研究竞争调制如何改变代理商的比赛风格，以及这如何影响游戏中人类玩家的体验。我们的结果表明，与普通代理人相比，与竞争对手的代理人相比，人类可以检测到特定的社会特征，这直接影响了后续游戏中人类玩家的表现。我们通过讨论构成人工竞争得分的不同社会和客观特征如何有助于我们的结果来结束我们的工作。

translated by 谷歌翻译

诸如变形金刚和LSTMS之类的流行模型将令牌用作其信息单位。也就是说，每个令牌都被编码为向量表示，这些向量直接在计算中使用。但是，人类经常考虑跨令牌（即短语）而不是其组成代币。在本文中，我们介绍了TreeFormer，这是一个受CKY算法和变压器启发的体系结构，该体系结构学习了组成操作员和汇总功能，以构建针对短语和句子的层次编码。我们的广泛实验证明了将层次结构纳入变压器的好处，并且与机器翻译，抽象性摘要和各种自然语言理解任务相比，与基线变压器相比显示出重大改进。

translated by 谷歌翻译

考虑了使用间歇性冲动力在三维空间中对棍子进行非骚扰操作的问题。目的是在一系列旋转对称的垂直轴对称的配置序列之间兼顾棍子。棍棒的动力学由五个广义坐标和三个控制输入描述。在应用冲动输入的两种连续配置之间，动力学在杂耍者的参考框架中以Poincar \'E映射为方便地表示。通过稳定庞加尔\'e地图上的固定点来实现与所需杂耍运动相关的轨道的稳定化。脉冲控制的Poincar \'e MAP方法用于稳定轨道，数值模拟用于证明与任意初始配置中所需的杂耍运动的收敛。在限制情况下，如果连续旋转对称配置被任意接近，则表明动力学将减少到箍上杆上稳定进动的动力学。

translated by 谷歌翻译